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摘要 : [目的 /意义 ] 科学 数据 出 版 是 数据 密集 型 科学 发 现 的 主要 学 术 传 播 方式 ， 对 于 实现 数据 重用 、 
科学 验证 具有 重要 的 意义 。[ 方法/ 过程 ] 地 球 科 学 从 原 有 的 数据 共享 模式 到 目前 的 数据 出 版 发 生 了 巨 
大 的 变化 。 作 者 将 数据 出 版 分 为 数据 期 刊 出 版 、 数 据 仓储 出 版 、 数 据 和 论文 联合 出 版 3 种 模式 ， 对 于 每 
一 种 模式 的 实践 方法 和 关键 要 素 进行 统计 和 对 比 ， 重 点 分 析 三 种 模式 的 优 劣 、 同 行 数 据 评议 问题 和 地 学 
数据 出 版 中 分 层 元 数据 的 重要 性 。[ 结果 / 结论 ] 通过 研究 ， 作 者 提出 基于 仓储 的 出 版 便于 融入 科学 数 
据 管理 过 程 ， 有 利于 数据 重用 ， 但 是 此 类 出 版 方式 缺少 同行 评议 ; 数据 的 同行 评议 应 该 有 别 于 学 术 论 文 ， 
注重 数据 在 参与 科研 和 产生 再 生性 成 果 的 过 程 中 的 重用 性 ; 元 数据 的 分 层 描述 对 于 地 学 大 数据 的 保存 和 


重用 都 具有 重要 意义 。 
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地 球 科学 ( 以 下 简称 “地 学 ” ) 是 一 个 数 
据 科 学 ,但 是 由 于 数据 采集 难度 大 、 空 间 范 
围 广 、 仪 需 设 备 价值 昂贵 等 问题 , 数据 共享 、 获 
取 和 重用 一 直 都 是 地 学 研究 的 重要 内 容 。20 
世纪 早期 ， 人 们 采用 穿孔 卡片 的 方式 来 记录 
数据 。20 世纪 70 年 代 ， 为 实现 地 学 数据 的 共 
享 ， 多 个 国际 组 织 先 后 成 立 ， 如 世界 数据 中 
ty (World Data Center， 简 称 WDC, 2008 年 


后 被 World Data System 简称 WDS 取代 ) . Hh 
ER WE Wi 2H 2R (Group on Earth Observations, 
GEO ) 、 地 球 观 测 数据 网 (Data Observation 
Network for Earth) 。1988 年 中 国 加 入 WDS 
并 成 立 了 9 个 数据 中 心 ， 多数 为 地 球 科 学 领 
域 的 数据 中 心 ， 如 地 震 、 地 质 、 地 球 物 理 数 
据 中 心 "|, 2002 年 度 科 学 数据 共享 工程 启动 
了 “地 球 系 统 科 学 数据 共享 网 项 目 ”， 建 立 
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了 地 球 科学 数据 共享 平台 外。 但 是 这 些 数据 
中 心 和 共享 平台 的 数据 获取 往往 受到 限制 , HE 
享 不 活跃 ,其 至 形成 了 数据 孤岛 。 褚 云 强 等 中 
对 科学 大 数据 的 共享 机 制 进行 了 研究 ， 提 出 缺 
乏 数 据 共 享 的 政策 和 机 制 是 阻碍 其 发 展 的 主 
要 原因 ， 而 调动 科研 人 员 主 动 共享 数据 积极 
性 的 重要 机 制 就 是 自 下 而 上 的 科学 数据 出 版 。 
数据 出 版 是 近 几 年 由 出 版 界 和 数据 共享 界 共 
同 提出 的 新 概念 外， 在 开放 科学 的 趋势 下 ， 一 
些 国家 的 资助 机 构 和 国际 组 织 纷纷 出 台 政 策 
要 求 管理 和 共享 研究 数据 。 如 美国 NSF 地 学 
学 部 要 求 将 完整 的 数据 集 、 数 据 产品 、 软 件 
和 集成 整合 数据 必须 在 两 年 内 可 公开 访问 品 。 
由 于 数据 中 心 要 求 用 户 在 使 用 数据 时 体现 数 
据 作 者 的 贡献 ， 学 术 期 刊 要 求 作 者 在 发 表 文 
章 时 提供 与 科学 结论 相关 的 数据 ， 这 两 种 机 
制 最 终 成 为 推动 数据 出 版 的 共同 动力 。 数 据 
出 版 的 核心 是 为 数据 引用 提供 标准 的 引用 格 
式 和 永久 访问 地 址 ,使 科学 数据 是 可 获取 、 可 
理解 、 可 评 佑 、 可 使 用 的 中 ,与 原 有 的 数据 
共享 相 比 ， 数 据 出 版 更 加 强调 了 数据 重用 的 
可 能 性 以 及 数据 被 科研 人 员 的 认可 程度 。 德 
国 是 首 个 研究 科学 数据 出 版 的 国家 ,德国 国 
家 科学 技术 图 书馆 申请 成 为 国际 上 首 个 科学 
数据 DOI 代理 机 构 ， 并 为 很 多 原 WDS 数据 
中 心 的 数据 资源 进行 了 DOI 注册 外， 这 些 数 
据 中 心 逐 步 开展 数据 出 版 实践 ， 数 据 出 版 已 
经 成 为 共享 的 新 的 形式 。 数 据 引 用 评价 体系 
的 建立 ， 客 观 反映 了 数据 贡献 者 的 影响 力 ， 改 
善 了 原 有 的 数据 共享 不 活跃 的 状况 。 我 国 的 
地 学 数据 出 版 还 在 起 步 阶段 ,与 原 有 的 数据 
共享 形成 了 互补 的 态势 ， 中 国 地 质 调查 局 已 经 
开展 了 数据 的 DOI 注册 。 地 学 领域 的 数据 出 
版 由 于 数据 共享 起 步 较 早 ， 在 数据 出 版 实践 中 
具有 代表 性 ， 一 些 传统 的 地 学 期 刊 论文 很 早 就 
有 将 数据 作为 附件 同时 出 版 的 先例 ， 如 《岩石 
学 报 》。 笔 者 通过 调研 地 学 领域 的 各 类 数据 出 
版 模式 的 实践 方法 ， 探 讨 在 地 球 科 学 领域 数据 
出 版 中 存在 和 或 待 解决 的 主要 问题 。 
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@ 地 球 科学 领域 数据 出 版 的 主要 
模式 


自从 数据 出 版 的 概念 被 提出 后 ,一 些 WDS 
逐渐 将 原 有 的 数据 共享 服务 转化 为 数据 的 存储 
管理 和 出 版 服务 ， 注 重 数据 的 发 现 、 获 取 、 重 
用 、 回 溯 等 。 笔 者 主要 检索 了 re3data.org 平台 
中 注册 的 数据 中 心 仓储 , 其 中 地 球 科学 领域 已 经 
注册 的 仓储 有 647 个 ， 仅 次 于 生物 学 领域 的 数 
据 仓储 数量 , 是 数据 出 版 实践 为 数 较 多 的 学 科 。 
笔者 利用 JCR (Journal Citation Reports) ， 对 地 
球 科学 下 所 包含 的 地 质 、 地 球 物理 、 地 球 化 学 、 环 
境 科学 、 地 理 、 地 球 科 学 与 多 学 科 交 又 的 期 刊 
进行 了 查询 ， 同 时 参照 科 害 唯 安 的 DCI (Data 
Citation Index ) 中 地 球 科学 领域 的 数据 条 目的 出 
版 源 和 期 刊 网 站 的 介绍 进行 了 识别 。JCR 收录 
的 地 球 科学 类 数据 期 刊 主要 有 三 种 : GeoScience 
Data Journal ( i 称 GDJ) 、Scientific Data 
( 简称 SD) , Earth System Science Data ( fal 
PK ESSD ) 。 我 国 于 2014 年 发 行 了 地 球 科学 领 
域 的 数据 出 版 平台 全 球 变化 科学 研究 数据 出 版 
系统 ( Global Change Research Data Publishing & 
Repository, GCRDPR ) , 2017 年 该 出 版 系统 推 
出 了 《全 球 变化 数据 学 报 》。 一些 数据 仓储 和 
声望 较 好 的 学 术 期 刊 进 行 合作 ， 以 期 增加 数据 
的 影响 力 ， 实 现 学 术 论文 和 数据 的 互联 。 在 地 
球 科学 领域 的 数据 仓储 中 Pangaea 出 版 的 数据 量 
较 多 ，Elsevier 的 Science Direct 和 Scopus 均 与 
Pangaea 仓储 进行 了 联合 ， 实 现 学 术 论文 和 数据 
的 集成 出 版 。 还 有 一 类 是 将 数据 作为 附件 与 学 
术 论 文 一 起 出 版 ， 但 是 这 类 出 版 的 主体 依然 是 
学 术 论 文 ， 本 文 不 做 讨论 。 综 上 所 述 ， 地 学 领 
域 主要 呈现 的 数据 出 版 模式 包括 : 

C1) 数据 期 刊 : 将 数据 转化 为 论文 的 形式 
进行 描述 ， 发 表 在 数据 期 刊 中 ， 通常 与 领域 内 
的 数据 中 心 或 公共 数据 仓储 联合 实现 数据 集 的 
存 缴 ， 数 据 论 文 的 出 版 具有 和 学 术 论文 相似 的 
同行 评议 评审 流程 。 

(2) 基于 仓储 的 直接 数据 出 版 : 通过 数据 
仓储 发 布 数据 ， 部 分 由 原来 的 数据 共享 平台 转 
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变 而 来 ， 数 据 出 版 作为 数据 管理 和 共享 的 一 种 
方式 。 

(3) 学 术 论 文 和 数据 的 联合 出 版 : 数据 和 
学 术 论 文 之 间 的 互联 可 实现 数据 和 科学 发 现 的 
精确 关联 和 验证 。 与 上 述 两 种 数据 出 版 本 质 的 
区 别 是 出 版 的 内 容 不 仅仅 是 数据 ， 还 包括 来 自 
于 数据 的 科学 性 发 现 等 学 术 论 文 。 目 前 ， 大 多 
建立 在 出 版 社 与 数据 仓储 平台 合作 的 基础 上 , 通 
过 增强 出 版 的 形式 实现 论文 和 数据 的 关联 性 出 
版 与 发 布 。 
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2 地 学 数据 期 刊 


数据 期 刊 与 传统 的 科研 传播 中 的 学 术 论 文 
的 出 版 重点 不 同 ， 主 要 是 提供 和 描述 数据 集 本 
身 ， 通 常 不 关注 结论 的 科学 创新 性 与 否 ， 出 版 
的 主要 目的 是 提高 数据 的 影响 力 ， 使 科学 数据 
能 够 更 多 地 被 描述 、 解 释 、 重 用 。 笔 者 对 比 了 4 
种 地 球 科学 领域 的 数据 期 刊 ( 见 表 1 ) ， 各 期 刊 
的 载 文 量 统计 见 图 1， 其 中 SD 只 统计 了 地 球 与 
环境 科学 主题 下 的 载 文 量 。 


表 1 地 球 科学 类 数据 期 刊 调 查 表 


数据 期 刊 GDJ ESSD GCRDPR 
创刊 年 2014 2009 2014 
. Copernicus Puli- 《全 球 变化 数据 学 报 
出 版 者 Wiley Online Library Nature (中 英文 ) 》 编 辑 部 
土 题 范围 地 球 科学 领域 的 跨 ”综合 性 期 刊 ， 包 含 地 球 ”地 球 科学 领域 的 地 理科 学 
— 学 科 期 乔 科学 与 环境 科学 主题 。 路 学 科 期 乔 = 
期 刊 类 型 专业 型 综合 专业 型 专业 型 
Oa 期 刊 内 部 的 同行 评 “期刊 内 部 的 同行 评议 流 “网 络 开 放 的 两 段 = 
H TANA Fal x 家 匿 NA 
同行 评议 流程 议 流程 式 同行 评议 方法 内 部 专家 匿名 评议 
JCR 影响 因子 
Coté) 2.800 4.836 6.696 无 
数据 集 的 访问 方法 提交 到 建议 的 仓储 ”提交 到 建议 的 数据 仓储 提交 到 建议 的 仓 期 刊 系统 提供 的 数据 仓 
中 中 储 中 fiğ 
数据 集 引 用 标准 DataCite 月 定义 标准 DataCite 自 定 义 标 准 
出 版 方式 在 线 在 线 在 线 和 纸 行 在 线 


2.1 保证 数据 的 可 访问 性 

在 保证 数据 的 可 访问 性 方面 ， 所 有 的 期 
刊 都 需要 将 数据 提交 到 数据 仓储 中 进行 长 期 保 
存 ， 并 提供 可 持续 引用 的 唯一 标识 符 ， 目 前 大 
多 数 仓 储 都 采用 了 DOI 作为 地 址 解析 代理 的 
标准 。GDJ、SD、ESSD 自身 都 没有 保存 数据 
的 仓储 ， 因 此 刊物 列 出 了 可 提交 数据 的 仓储 列 
表 ， 在 论文 提交 的 过 程 中 要 同时 选择 一 个 建议 
的 仓储 保存 数据 。 大 部 分 数据 期 刊 都 是 利用 re- 
3data.org 平台 中 注册 的 仓储 来 选取 建议 提交 的 
仓储 ,或 者 选取 与 数据 期 刊 内 容 相 符 的 国家 级 
数据 中 心 ， 这 种 出 版 模式 需要 出 版 机 构 和 数据 
保存 管理 机 构 的 合作 ， 对 数据 的 管理 和 数据 论 
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文 的 出 版 是 由 两 个 独立 的 系统 协作 完成 的 。 但 
是 GCRDPR 与 其 他 3 种 期 刊 略 有 区 别 ， 它 本 身 
是 一 个 网 络 出 版 的 系统 , 集 元 数据 实体 数据 、 数 
据 论 文 的 出 版 于 一 体 。 首 次 提交 数据 后 该 出 版 
平台 会 根据 元 数据 的 质量 和 数据 描述 判断 是 否 
可 以 接受 该 数据 ， 如 果 接 受 再 通知 作者 参照 指 
南 撰 写 数 据 论 文 并 分 配 DOI 给 数据 集 ， 然 后 进 
入 数据 论文 同行 评议 的 流程 。 
2.2 数据 论文 的 写作 规范 

数据 论文 是 对 数据 集 内 容 的 增强 性 描 
WB, 不同 学科 领域 对 于 数据 论文 的 描述 维度 各 
有 差异 ， 笔 者 将 4 种 地 学 数据 期 刊 对 数据 集 描 
述 的 内 容 框 架 进 行 了 汇总 ， 共 涉及 9 个 方面 : 
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QD 数据 集 的 有 效 访问 方式 ， 比 如 提供 DOT 或 者 
URI; 包 数 据 集 的 覆盖 范围 ， 包 括 时 间 和 空间 的 

盖 范 围 ; 包 数据 集 的 格式 信息 ， 如 数据 本 身 
的 格式 、 编 码 方法 和 编码 语言 等 ;由 数据 集 的 
授权 许可 ， 用 于 支持 数据 集 的 合法 使 用 ; 鸟 项 
目 信息 ， 提 供 数据 集 的 生产 信息 ， 如 生产 数据 
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息 ， 提 供 数 据 集 的 使 用 方法 描述 ， 促 进 数 据 集 
重用 的 可 能 ; @ 对 于 数据 引用 的 支持 与 规范 。 
表 2 对 比 了 4 种 期 刊 各 自 的 内 容 框 架 。ESSD 
没有 明确 规定 其 描述 的 内 容 要 素 , 但 是 在 发 表 
数据 论文 的 过 程 中 编辑 会 建议 作者 去 关注 决定 
数据 论文 潜在 价值 的 相关 内 容 ， 给 出 评议 的 指 


集 的 目的 和 资助 来 源 ，(@ 来 源 信息 ， 提 供 生 产 
数据 集 的 方法 的 描述 信息 ,包括 采用 的 工具 、 处 
理 方法 ; 〇 质量 信息 ， 提 供 数据 质量 的 描述 信 
息 ， 如 数据 集 的 局 限 性 和 异常 信息 ; @ 重 用 信 


南 ， 指 南 中 包含 的 内 容 与 表 2 中 列 出 的 9 个 方 
面 基本 相同 。《 全 球 变化 科 据 学 报 》 没 有 对 数 


据 论 文 的 内 容 做 统一 的 规范 ， 而 是 在 元 数据 中 
进行 了 规范 。 


250 
ae 200 
eS 150 
ix 
hi 100 
50 = 20 z 17 
i 2009 20104 2011F 20124 2013F 20144 2015F 20164 2017F 20184 
出 版 时 间 
—e— GeoScience Data Journal 
—e— Scientific Data (Earth and environmental sciences) 
—e— Earth System Science Data 
一 0 CLEAR REE) 
图 1 各 期 刊 的 载 文 量 统计 
表 2 4 类 期 刊 对 数据 集 描述 要 求 的 对 比 
期 刊 名称 GDJ SD ESSD GCRDPR 
数据 集 可 获取 性 标识 (DOI BK URI ) v V v V 
数据 集 的 覆盖 范围 v V 
数据 集 格式 信息 V M V 
数据 集 授 权 许可 信息 V 
项 目 信息 V 
数据 重用 信息 v V M 
数据 质量 描述 信息 vV 
数据 来 源 信 息 V V V 
对 于 数据 引用 的 支持 与 规范 vV V v V 
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2.3 同行 评议 与 质量 控制 

在 同行 评议 方面 SD, GDJ 和 GCRD- 
PR 采用 了 与 传统 学 术 期 刊 类 似 的 同行 评议 流 
程 ， 但 是 评议 的 内 容 则 更 注重 数据 版 权 、 质 量 。 
GCRDPR 专门 提供 了 一 个 评议 内 容 的 模板 ， 包 
含 数据 集 的 意义 、 质 量 、 学 术 相 关 性 、 作 者 的 
知识 产权 意识 、 数 据 的 可 获取 性 共 5 个 方面 的 
内 容 。ESSD 与 其 他 3 种 期 刊 略 有 不 同 ， 采 用 
了 两 段 式 的 开放 式 同行 评议 ， 即 作者 提交 论 
文 初 稿 后 将 在 网 络 平台 上 作为 讨论 稿 出 版 ， 然 
后 经 过 专家 的 评审 后 ， 被 专业 编辑 评估 ， 但 不 
评估 其 科学 内 容 ， 仅 对 数据 论文 是 否 符合 论文 
的 撰写 要 求 、 是 否 符合 期 刊 的 主题 范畴 进行 评 
估 ， 并 提出 技术 性 的 修改 建议 。 论 文 在 这 个 状 
态 将 保持 8 周 ， 期 间 可 以 进行 各 种 同行 评价 和 
讨论 等 ， 每 篇 论文 接受 至 少 两 个 专家 的 终审 。 
在 公开 讨论 阶段 ， 作 者 需要 回复 各 种 评论 并 修 
改 论文 初稿 ， 最 后 才能 决定 是 否 出 版 。 对 于 数 
据 论文 的 同行 评议 ， 出 版 界 尚未 有 统一 的 标 
准 ， 在 这 种 情况 下 这 种 两 段 式 的 公开 评议 方式 
更 有 利于 真正 的 数据 使 用 者 或 学 术 同 行 提出 较 
为 准确 的 意见 。 


Q 基于 地 学 仓储 的 数据 管理 和 出 
版 服务 


3.1 基于 仓储 直接 出 版 数据 的 要 素 

基于 仓储 实现 数据 出 版 是 将 原 有 共享 数 
据 的 方式 转变 为 出 版 后 出 现 的 ， 目 前 各 个 领域 
没有 一 个 明确 标准 规定 其 应 具备 的 要 素 。J. E. 
Kratz "在 对 数据 出 版 的 调查 中 发 现 大 多 数 研究 
人 员 更 关注 以 下 几 点 : 数据 是 否 有 了 唯一 标识 、 是 
否 可 开放 获取 、 是 否 存 放 在 一 个 仓储 中 、 是 否 
具有 正式 丰富 的 元 数据 。 自 从 re3data.org 提供 
了 对 世界 各 国 研 究 数 据 长 期 保存 和 管理 的 仓储 
的 注册 服务 后 ,仓储 的 建设 得 以 规范 ， 仓 储 的 
影响 力也 得 到 了 提升 ， 一 些 出 版 商 和 期 刊 (如 
PeerJ, Springer 和 Nature 的 Scientific Data 等 ) 都 
以 re3data.org 作为 简单 的 工具 来 识别 适合 的 数 
据 仓储 。 笔 者 选取 表 1 中 的 数据 期 刊 推荐 的 数 
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据 仓 储 进行 了 对 比 ， 发 现在 数据 出 版 方面 具备 
的 共同 要 素 包含 以 下 5 个 方面 : 

(1) 为 数据 提供 唯一 标识 ， 保 证 数据 具有 
一 个 固有 地 址 可 供 访问 。 

(2) 提供 数据 提交 编辑 工具 和 进行 数 
据 质量 控制 。 数 据 提交 编辑 工具 包括 对 数据 
的 提交 、 对 数据 说 明 的 编辑 、 对 元 数据 的 编 
辑 。 数 据 质量 控制 大 多 数 是 由 数据 管理 员 完 
成 ， 保 证 上 述 提交 和 编辑 的 内 容 的 完整 性 和 
一 致 性 。 

(3) 提供 正式 的 数据 使 用 许可 声明 。 仓 储 
不 具有 像 期 刊 同样 的 商业 版 权 ， 数 据 使 用 许可 
在 一 个 开放 的 科学 环境 下 对 数据 创建 者 和 使 用 
者 提供 双重 保护 。 为 了 避免 在 数据 重用 过 程 中 
的 各 类 权益 纠纷 ， 需 要 提供 一 个 数据 使 用 许可 
声明 。 

(4) 提供 正式 的 数据 引用 格式 。 数 据 的 正 
式 引用 是 重用 数据 实现 数据 定位 的 机 制 TE, 
Pronk 等 "在 博弈 论 框 架 下 分 析 了 共享 和 出 版 
数据 的 影响 因素 ,结果 表明 与 政策 规定 相 比 ， 降 
低 成 本 和 增加 引用 等 更 具有 激励 效果 ， 即 正式 
的 引用 对 于 提升 科研 人 员 出 版 的 积极 性 具有 促 
进 作 用 ， 引 用 是 保障 数据 作者 与 管理 者 数据 权 
益 的 一 种 有 效 方式 。 
(5 ) 数据 仓储 可 开放 获取 数据 。 数 据 可 获 
取 是 实现 重用 的 前 提 ， 大 部 分 提供 数据 出 版 服 
务 的 仓储 都 是 可 开放 获取 的 ， 少 数 仓储 需要 权 
限 才 能 获取 数据 。 

作者 在 re3data.org 中 按照 上 述 5 个 要 素 进 
行 了 检索 ， 通 过 统计 发 现在 开放 获取 方面 大 部 
分 仓储 都 满足 ， 只 有 少数 是 分 级 开放 的 。 在 数 
据 标识 符 方面 ， 目 前 有 234 个 仓储 提供 了 此 服 
K, 采用 较 多 的 标识 符 为 DOI[、ARK、URI。 其 
中 101 个 仓储 采用 了 DOI， 其 他 未 提供 此 服务 
的 仓储 多 数 是 采用 了 外 部 公共 仓储 的 注册 服务 
来 实现 自身 的 数据 管理 。 在 数据 提交 编辑 与 质 
量 控制 方面 ， 与 期 刊 不 同 的 是 ， 在 仓储 中 数据 
质量 控制 由 数据 管理 人 员 完 成 ， 属 于 技术 性 的 
审查 ,不同 于 科学 性 的 同行 评议 ， 这 种 技术 审 
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查 的 方式 主要 有 两 种 : 中 一 部 分 仓储 的 数据 的 
专业 性 较 强 ， 且 与 项 目 密切 相关 ， 在 这 类 仓储 
的 数据 质量 控制 流程 中 增加 了 与 项 目 相关 的 同 
领域 专家 来 验证 数据 ， 如 美国 冰雪 数据 中 心 就 
采用 了 这 种 方式 ; @ 一 部 分 仓储 支持 仓储 的 认 
证 标准 并 通过 了 认证 ， 其 中 支持 认证 比较 多 的 
有 WDS (世界 数据 中 心 ) C, DSA (荷兰 的 数 
据 归 档 和 网 络 服务 发 布 的 数据 批准 印章 ) 号 和 
CoreTrustSeal""®! ， 其 中 有 48 个 仓储 属于 WDS。 
对 于 数据 使 用 的 声明 采用 较为 广泛 的 是 知识 共 
享 家 族 的 CC0、CC-BY、CC-BY-SA 许可 协 
议 中 。 对 于 正式 的 数据 引用 方面 ， 由 于 数据 出 
版 起 步 较 晚 ， 国 内 外 尚 无 统一 标准 ， 地 学 数据 
出 版 中 较为 广泛 参考 的 是 RORCE11 数据 引用 联 
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HE HRT EK 
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合 声明 上 和 DataCite AHS SIFT KO. 而 
在 具体 的 应 用 中 ， 一 些 数 据 仓储 要 求 在 发 表 学 
术 论 文 使 用 数据 的 同时 采用 仓储 提供 的 正式 标 
引 ， 还 有 一 些 数 据 仓储 要 求 在 论文 致谢 中 声明 
数据 的 来 源 。 前 者 多 数 为 与 期 刊 合 作 的 数据 出 
版 服务 仓储 ， 出 版 的 数据 大 多 是 经 过 挑选 、 处 
理 后 的 成 果 性 数据 ; 后 者 多 用 于 国家 级 地 学 研 
究 机 构 下 的 数据 中 心 ， 如 美国 的 NOAA ( 美 
国 国 家 海洋 气象 局 ) ，USGS ( 美国 地 质 调 查 
局 ) 等 ， 共 享 的 数据 多 为 大 规模 的 原始 采集 数 
据 或 基础 地 理 数据 ， 共 享 方式 除了 数据 出 版 ， 还 
包括 FTP 服务 或 者 RESTAPI 等 。 上 述 统计 结果 
见 图 2， 在 re3data 网 站 注册 的 仓储 仅 有 26% 完 
全 满足 上 述 5 个 要 素 。 


608 


采用 cc 协议 声明 MMIII 299 


提 世 了 正式 的 引用 声明 WWW 169 


提供 PID 注 册 MONI 234 


2 基于 数据 出 版 5 个 关键 要 素 的 地 学 仓储 数量 统计 


3.2 基于 科学 数据 管理 过 程 的 对 比 

数据 出 版 与 研究 过 程 中 的 数据 管理 息 息 
相关 ， 因 此 不 存在 绝对 独立 的 数据 出 版 或 
数据 管理 平台 '"。 在 re3data.org 的 地 学 领 
域 数 据 仓 储 中 ， 提 供 数 据 出 版 服务 较 多 的 
仓储 主要 有 以 下 3 类 : 中 公共 的 数据 出 版 平 


R; 包 地 学 领域 的 国际 数据 共享 组 织 或 数据 
中 心 ， 如 WDS; 久 国 家 级 的 地 学 研究 机 构 
所 建设 的 数据 汇 交 共享 平台 。 笔 者 对 数据 管 
理 过 程 中 与 出 版 相关 的 内 容 进 行 了 归纳 ， 选 
取 具 有 代表 性 的 数据 仓储 进行 了 对 比 ， 如 表 
3 所 示 : 
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表 3 三 类 仓储 的 数据 出 版 和 管理 过 程 对 比 


期 (总 第 21 期) 
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国际 数据 共享 组 织 或 数据 中 心 。 国家 级 地 学 研究 机 构 的 数据 汇 交 
仓储 类 别 公共 数据 出 版 平台 ieee ter eae eS 
名 称 Pangaea NISDC 冰雪 数据 中 心 英国 国家 地 学 数据 中 心 

司 家 德国 美国 英国 
EE TT 
主题 da 冰川 冻 土 研究 数据 地 质 、 地 球 物理 、 地 球 化 学 数据 
QD 世界 各 国 科 研 人 员 提 ee 
a ZEBO: E f 英国 自然 环境 委员 会 资助 的 项 目 
BAPE wwe pimp ein DAMA ECAA SORES pierce 
ee 轩 其 他 与 浆 土 研究 相关 的 科研 数据 
中 采用 Pangaea ticket DAHER OE DAT HEHE TA HEE A 5. FSC 求 科 学 类 
system 提交 数据 ; 口 ,利用 网 页 和 FTP 服务 提交 数据 OR ee 
@ 由 作者 将 数据 编辑 成 ”加 提交 初步 数据 描述 信息 后 ， 由 数 ERAM ERANU 
数据 提交 数据 表 进 行 提 交 ; 据 编辑 进行 审核 判断 是 否 出 版 ; 范 编辑 元 数据 并 提交 数据 集 ; 
@ 由 数据 管理 员 根 据 数 。 @ 同 意 出 版 后 要 求 提交 详细 的 数据 仿 勾 数据 管理 员 审核 语 为 提交 的 
据 参 数 定义 进行 检查 保 。 文档 和 元 数据 ， 并 通过 FTP 服务 。 数据 提供 DOL 注册 服务 
存 到 相应 的 数据 库 中 。 ”上 传 数 据 a 
PID 注册 标准 DOI DOI DOI 
: eee 
0 对 专业 数据 格式 进行 了 规范 ,其 
长 期 保存 格式 (ASCI) ， 或 Excel 格 支持 各 类 数据 格式 a al algae 
式 ， 其 他 格式 的 文件 要 pE 为 *.las、*.sgy、*.xtf 
求 以 ZIP 格式 提交 re 
数据 参数 的 检查 元 数据 检查 : 
sennep TARA 数据 描述 文档 ， 
“数据 的 完整 性 和 一 致 性 ”数据 集 检查 〈 由 项 目的 内 部 专家 进 元 数据 检查 
检查 行 数 据 的 评议 eee 
ae eer say ie wht ce e tity 参照 ISO19115 地 理 信息 元 数据 的 
参照 ite 的 标准 提 i a a ee 
数据 引用 规范 paaie 的 标准 提 自 定义 数据 引用 规范 自 定义 数据 引用 规范 
开放 获取 程度 开放 部 分 开放 ， 部 分 限制 fete tS RATA Rae 
/又 A >» A it 开放 
COCA tae 统一 数据 发 现 工具 ; 集成 了 NASA 
SPRATA FATE PANGAEA Earthdata 和 IceBridge 的 数据 检索 ”统一 数据 发 现 工具 
A 
Data Warehouse 
Ae SOAPREST FTP WMS., WFS, INSPIRE Service 
O 数据 与 论文 的 联合 出 版 定 了 相关 的 数据 存 缴 和 出 版 政策 。 但 是 真正 将 


以 Nature 、Science 为 代表 的 顶级 学 术 期 刊 


数据 和 学 术 论 文联 合 进 行 出 版 的 实践 较 少 ， 其 


开始 正式 提出 出 版 与 论文 相关 数据 的 要 求 , 并 制 
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合作 ， 如 Elsevier 的 Science Direct 和 Scopus 14 
与 Pangaea 仓储 进行 了 联合 ， 在 提交 学 术 论 文 
的 过 程 中 要 求 作 者 将 数据 存储 在 Pangaea 仓储 
中 出 版 并 获得 一 个 可 访问 的 链接 地 址 ， 才 能 继 
续 进 入 到 学 术 论 文 的 出 版 流程 ， 数 据 和 论文 出 
版 之 间 具 有 一 定 程度 的 制约 。Elsevier 平台 运用 
Pangaea 的 关联 数据 工具 ， 可 以 直接 获得 出 版 的 
数据 。 在 Pangaea 的 数据 平台 ， 数 据 出 版 后 也 提 
供 了 引用 此 数据 的 Elsevier 出 版 论文 的 DOI， 形 
成 互联 。 联 合 出 版 对 于 论文 质量 的 控制 、 数 据 
重用 、 科 学 结论 的 验证 都 具有 重要 作用 ， 可 提 
供 学 术 论文 和 科学 数据 双向 透明 化 访问 。Y Gil 
等 中 对 于 开放 科学 环境 下 的 未 来 地 球 科学 论文 
的 出 版 方式 进行 了 探讨 ， 提 出 了 未 来 科学 论文 
将 包括 数据 、 软 件 和 可 复制 出 版 物 多 种 形式 ， 同 
时 具备 在 开放 科学 和 数字 学 术 环境 下 的 理想 特 
征 : 中 在 公共 存储 库 共 享 数据 、 软 件 和 其 他 研究 
产品 ; @@ 可 使 用 开放 许可 ; @ 元 数据 可 用 于 描 
述 数 据 、 软 件 和 其 他 研究 产品 ; 由 数据 、 软 件 
和 其 他 研究 产品 都 具有 唯一 的 可 持续 标识 符 ; © 
可 在 文章 中 引用 上 面 所 有 提 及 的 数字 资源 。 目 
前 ， 尚 未 真正 实现 Y. Gil 等 人 所 提 到 的 完全 整合 
了 所 有 形式 学 术 成 果 的 融合 性 出 版 ， 但 是 这 种 
多 形态 的 学 术 成 果 ( 论文、 数据 、 软 件 、 其 他 
数据 产品 等 ) 的 出 版 和 开放 获取 已 经 成 为 未 来 
出 版 领域 的 趋势 。 


O 数据 出 版 关键 问题 探析 


5.1 3 种 出 版 模式 在 数据 共享 中 的 作用 

上 述 3 种 出 版 模式 在 地 学 数据 共享 过 程 中 
所 起 到 的 作用 有 一 定 的 差异 ， 数 据 期 刊 的 出 版 
方式 在 学 术 传 播 方 面具 有 优势 ， 数 据 论文 的 影 
自力 较 其 他 出 版 方式 高 ， 但 是 数据 的 获取 则 需 
要 通过 数据 仓储 实现 ， 这 些 仓 储 均 为 与 数据 期 
刊 合作 或 由 期 刊 建议 提交 数据 的 仓储 ， 以 这 种 
方式 出 版 的 数据 大 多 数 是 经 过 挑选 、 处 理 、 计 
算得 到 的 数据 集 或 者 是 数据 产品 ， 研 究 人 员 最 
关注 的 不 是 数据 论文 而 是 数据 本 里 。 通 过 仓储 
出 版 的 数据 能 够 直接 融入 研究 数据 的 管理 过 
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程 ， 缩 短 了 数据 发 布 的 周期 ， 有 利于 数据 的 获 
取 和 重用 ， 国 内 外 数据 政策 的 出 台 积 极 推动 了 
开放 科学 和 数据 监管 ， 研 究 数据 的 管理 必须 要 
通过 数据 仓储 来 实现 ， 此 外 大 规模 基础 数据 集 
(如 遥感 、 基 础 地 理 等 数据 ) 也 可 通过 仓储 平 
台 的 FTP 服务 或 接口 服务 实现 互 操作 。 但 是 , 大 
多 数 仓储 没有 学 术 性 的 同行 评议 ， 数 据 质量 控 
制 大 多 数 属于 技术 性 检查 与 仓储 认证 。 联 合 出 
版 集合 了 上 述 两 种 出 版 的 优势 ， 对 于 验证 科学 
结论 、 建 立 完 整 的 学 术 人 研究 轨迹 非常 重要 ， 然 
而 这 需要 出 版 商 、 图 书馆 或 数据 监管 部 门 、 科 
研 机 构 等 协同 建立 知识 生态 链 。 
5.2 数据 出 版 的 同行 评议 问题 

同行 评议 是 数据 质量 控制 的 关键 ， 对 于 
数据 出 版 来 说 同行 评议 虽然 不 是 必须 的 ， 但 是 
这 种 方式 却 是 增加 数据 可 信和 度 的 黄金 标准 。 然 
而 目前 在 数据 出 版 中 缺少 针对 科学 数据 的 同行 
评议 体系 。 出 版 领域 对 数据 论文 大 多 数 采用 了 
与 学 术 论 文 相似 的 同行 评议 方式 来 控制 数据 质 
量 ， 这 种 方式 的 优势 在 于 利用 原 有 的 学 术 刊 物 
的 影响 力 带 动 了 研究 人 员 对 数据 论文 可 信和 度 的 
认可 。 但 是 传统 的 学 术 论 文 和 数据 论文 所 关注 
的 重点 不 同 ， 数 据 出 版 更 注重 数据 重用 这 一 特 
点 ， 而 学 术 论文 更 加 注重 科学 发 现 的 创新 性 。 
B. Lawrence!” 等 曾经 提出 科学 数据 的 同行 评议 
通常 从 数据 质量 、 元 数据 质量 、 其 他 通用 因素 
3 个 方面 开展 评议 。ESSD 采用 的 两 段 式 的 开放 
式 同 行 评 议 ， 利 用 互联 网 开放 周期 让 真正 的 数 
据 使 用 者 评判 其 数据 集 的 质量 ， 数 据 用 户 的 反 
馈 对 于 验证 数据 和 论文 内 容 的 一 致 性 和 数据 质 
量具 有 重要 意义 。 此 外 数据 评议 的 时 间 选 择 也 
是 非常 关键 的 ， 届 宝 强 等 提出 随 着 数据 量 以 指 
数 规模 增长 ， 可 能 更 多 会 选择 出 版 后 的 同行 评 
议 1。 出 版 后 的 评议 形式 包括 针对 出 版 数据 的 
意见 征集 、 数 据 使 用 度量 和 数据 修改 ， 可 能 对 
数据 使 用 人 员 而 言 ， 更 具 可 扩展 性 。 此 外 一 些 
基于 仓储 的 数据 出 版 也 引入 了 同行 评议 的 理念 
和 方法 ， 如 美国 冰雪 数据 中 心 ， 利 用 项 目 内 部 
专家 对 提交 到 该 中 心 的 数据 进行 评议 ， 由 于 评 
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审 专家 具备 相同 的 专业 知识 ， 了 解数 据 重 用 的 
方法 , 对 于 数据 质量 的 控制 具有 一 定 的 权威 性 。 
数据 的 评审 应 该 有 别 于 传统 的 学 术 论 文 ， 不 能 
仅 从 数据 论文 的 学 术 性 的 角度 来 筛选 ， 而 更 应 
该 重视 数据 在 参与 科研 和 产生 再 生性 成 果 的 过 
程 中 的 重用 性 、 元 数据 的 质量 、 数 据 使 用 描述 
是 否 完整 全 面 等 问题 。 数 据 同 行 评议 的 专家 需 
要 具有 相同 的 专业 知识 背景 和 使 用 同类 数据 的 
经 验 。 
5.3 地 学 数据 出 版 中 分 层 元 数据 的 重要 性 

元 数据 主要 用 于 描述 数据 ， 帮 助 研究 者 实 
现 数据 重用 ， 笔 者 调研 的 数据 质量 控制 都 包含 
对 元 数据 的 检查 。 在 数据 的 实际 应 用 中 ， 元 数 
据 是 需要 分 层次 描述 的 。 首 先 ， 对 于 数据 使 用 需 
求 可 分 为 数据 发 现 、 数 据 引 用 、 专 业 数 据 描述 3 
个 层次 。 发 现 层 通常 采用 DC 核心 元 数据 标准 , 引 
用 层 主要 采用 或 参考 DataCite 的 元 数据 标准 ,而 
专业 数据 描述 较为 复杂 ， 地 球 科学 领域 元 数据 
区 别 于 通用 元 数据 的 最 显著 特点 是 其 数据 本 喘 
具有 的 时 空 特 性 ， 地 学 领域 常用 的 元 数据 标准 
Æ NASA 的 DIF、ISO19115、ISO19139、FGDC 
等 ， 大 多 数据 仓储 在 专业 元 数据 的 描述 上 都 采 
用 或 参考 了 以 上 元 数据 标准 ， 有 的 甚至 还 同时 
提供 了 多 种 标准 的 元 数据 。 其 次 ， 地 学 数据 的 
体 量 较 大 ， 基 于 数据 组 织 的 需求 ， 应 该 根据 数 
据 集 颗 粒度 的 大 小 提供 多 层次 的 元 数据 。 笔 者 
所 调研 的 数据 仓储 中 ， 多 数 规定 了 单个 数据 集 
的 大 小 不 超过 1-2G， 而 对 于 原始 采集 的 数据 来 
说 可 能 远大 于 这 个 体 量 。 如 地 震 反射 剖面 数据 
Fee Fe A a MT E AIR aE TT AA, RE RO 
按照 地 球 的 经 纬度 进行 网 格 化 组 织 ， 整 个 研究 
的 地 理 范 围 可 能 包含 了 若干 个 数据 集 。Pangaea 
在 出 版 大 体 量 的 反射 地 震 数据 时 ， 将 数据 集 拆 
解 成 若干 个 数据 序列 ， 赋 予 每 个 数据 序列 一 个 
唯一 的 标识 符 ， 这 时 既 需 要 给 每 一 个 数据 序列 
提供 专业 元 数据 ， 同 时 也 需要 提供 整个 研究 区 
域 数据 集 的 元 数据 信息 。 综 上 所 述 在 地 学 数据 
出 版 实践 中 ， 元 数据 的 分 层 描述 对 于 数据 的 保 
存 和 重用 都 具有 重要 的 意义 。 
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从 以 上 研究 可 以 发 现 ， 现 有 地 学 数据 期 刊 
的 载 文 量 呈 现 逐 年 上 升 的 趋势 ， 说 明 数 据 出 版 
逐渐 被 科研 人 员 认 可 与 接受 ， 这 对 于 研究 者 积 
极地 共享 数据 具有 促进 作用 。 国 内 外 科学 数据 
管理 政策 的 出 台 使 得 科学 数据 的 保存 与 管理 成 
为 研究 中 必 不 可 少 的 环节 ， 而 数据 出 版 与 数据 
管理 息息相关 ， 任 何 模式 的 数据 出 版 都 离 不 开 
数据 仓储 。 笔 者 提取 了 数据 出 版 必要 的 5 个 要 
素 ， 但 是 通过 调研 发 现 注册 在 re3data 中 的 地 学 
仓储 能 够 完全 满足 这 5 要 素 的 为 数 不 多 ， 这 意 
味 着 大 多 数 数 据 仓储 尚未 具备 完善 的 数据 出 版 
能 力 。 学 术 论文 和 数据 的 联合 出 版 受到 开放 科 
学 环境 的 限制 ， 目 前 实践 较 少 。 综 合 调研 的 结 
果 ， 笔 者 对 其 存在 的 关键 问题 进行 了 探讨 ， 这 
对 于 我 国 地 学 领域 中 数据 共享 模式 向 数据 出 版 
转变 的 实践 具有 借鉴 意义 。 

此 外 ， 地 学 数据 出 版 具有 自身 的 领域 特 
点 ， 地 学 研究 的 过 程 通常 被 概括 为 3 个 阶段 : 通 
过 仪器 采集 数据 ， 对 数据 进行 分 析 和 处 理 ， 通 
过 创建 研究 方法 生成 数据 产品 和 研究 结论 。 在 
这 3 个 阶段 中 可 能 产生 的 数据 包含 : 原始 采集 
的 数据 ， 数 据 读 取 、 转 换 、 可 视 化 等 软件 ， 由 
于 创建 新 的 数据 处 理 或 计算 方法 而 产生 的 新 的 
数据 产品 ， 融 合 多 种 数据 及 数据 衍生 物 的 出 版 
对 于 地 学 领域 的 数据 共享 将 是 一 个 挑战 。 
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A Contrastive Study of Practical Modes of Data Publishing 
—Take the Field of Earth Science as an Example 


Han Lu DingYi 
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Abstract: [Purpose/significance] Scientific data publishing is the main mode of academic communication 
for data-intensive scientific discovery, which is of great significance for data reuse and scientific verification. 
[Method/process] Earth sciences has undergone a great change from the data sharing model to the current 
data publishing. Current practices of data publishing can be divided into three modes: data journal publish- 
ing, data warehousing publishing, data and paper joint publishing. The author made statistics and compari- 
son on the practice methods and key elements of each mode, and emphatically analyzed the advantages and 
disadvantages of the three modes, peer data review issues and the importance of hierarchical metadata in 
geoscience data publishing. [Result/conclusion] Through research, the author proposes that warehouse-based 
publishing facilitates integration into scientific data management process and facilitates data reuse. Howev- 
er, such publishing mode usually lacks peer review. Peer review of data should be different from academic 
papers and should focus on the reusability of data in the process of participating in scientific research and 
producing regenerative results. The hierarchical description of metadata is of great significance to the preser- 
vation and reuse of geoscience big data. 
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